传播模型已被证明对各种应用程序有效,例如图像,音频和图形生成。其他重要的应用是图像超分辨率和逆问题的解决方案。最近,一些作品使用了随机微分方程(SDE)将扩散模型推广到连续时间。在这项工作中,我们介绍SDE来生成超分辨率的面部图像。据我们所知,这是SDE首次用于此类应用程序。所提出的方法比基于扩散模型的现有超级分辨率方法提供了改进的峰值信噪比(PSNR),结构相似性指数(SSIM)和一致性。特别是,我们还评估了该方法在面部识别任务中的潜在应用。通用面部特征提取器用于比较超分辨率图像与地面真相,并获得了与其他方法相比,获得了卓越的结果。我们的代码可在https://github.com/marcelowds/sr-sde上公开获取
translated by 谷歌翻译
Traditionally, data analysis and theory have been viewed as separate disciplines, each feeding into fundamentally different types of models. Modern deep learning technology is beginning to unify these two disciplines and will produce a new class of predictively powerful space weather models that combine the physical insights gained by data and theory. We call on NASA to invest in the research and infrastructure necessary for the heliophysics' community to take advantage of these advances.
translated by 谷歌翻译
Machine Learning algorithms have been extensively researched throughout the last decade, leading to unprecedented advances in a broad range of applications, such as image classification and reconstruction, object recognition, and text categorization. Nonetheless, most Machine Learning algorithms are trained via derivative-based optimizers, such as the Stochastic Gradient Descent, leading to possible local optimum entrapments and inhibiting them from achieving proper performances. A bio-inspired alternative to traditional optimization techniques, denoted as meta-heuristic, has received significant attention due to its simplicity and ability to avoid local optimums imprisonment. In this work, we propose to use meta-heuristic techniques to fine-tune pre-trained weights, exploring additional regions of the search space, and improving their effectiveness. The experimental evaluation comprises two classification tasks (image and text) and is assessed under four literature datasets. Experimental results show nature-inspired algorithms' capacity in exploring the neighborhood of pre-trained weights, achieving superior results than their counterpart pre-trained architectures. Additionally, a thorough analysis of distinct architectures, such as Multi-Layer Perceptron and Recurrent Neural Networks, attempts to visualize and provide more precise insights into the most critical weights to be fine-tuned in the learning process.
translated by 谷歌翻译
当歌曲创作或演奏时,歌手/词曲作者通常会出现通过它表达感受或情感的意图。对于人类而言,将音乐作品或表演中的情感与观众的主观感知相匹配可能会非常具有挑战性。幸运的是,此问题的机器学习方法更简单。通常,它需要一个数据集,从该数据集中提取音频功能以将此信息呈现给数据驱动的模型,从而又将训练以预测给定歌曲与目标情绪匹配的概率是什么。在本文中,我们研究了最近出版物中最常见的功能和模型来解决此问题,揭示了哪些最适合在无伴奏歌曲中识别情感。
translated by 谷歌翻译
公共数据集在推进车牌识别(LPR)的最新技术方面发挥了关键作用。尽管数据集偏见在计算机视觉社区中被认为是一个严重的问题,但在LPR文献中很大程度上忽略了它。 LPR模型通常在每个数据集上进行训练和评估。在这种情况下,他们经常在接受培训的数据集中证明了强大的证明,但在看不见的数据集中表现出有限的性能。因此,这项工作研究了LPR上下文中的数据集偏差问题。我们在八个数据集上进行了实验,在巴西收集了四个,在中国大陆进行了实验,并观察到每个数据集都有一个独特的,可识别的“签名”,因为轻量级分类模型预测了车牌(LP)图像的源数据集,其图像的源95%的精度。在我们的讨论中,我们提请人们注意以下事实:大多数LPR模型可能正在利用此类签名,以以失去概括能力为代价,以改善每个数据集中的结果。这些结果强调了评估跨数据库设置中LPR模型的重要性,因为它们提供了比数据库内部的更好的概括(因此实际性能)。
translated by 谷歌翻译
太阳能动力学天文台(SDO)是NASA多光谱十年的长达任务,每天都在日常产生来自Sun的观测数据的trabytes,以证明机器学习方法的潜力并铺路未来深空任务计划的方式。特别是,在最近的几项研究中提出了使用图像到图像翻译实际上产生极端超紫罗兰通道的想法,这是一种增强任务较少通道的提高任务的方法,并且由于低下链接而减轻了挑战。深空的速率。本文通过关注四个通道和基于编码器的建筑的排列来研究这种深度学习方法的潜力和局限性,并特别注意太阳表面的形态特征和亮度如何影响神经网络预测。在这项工作中,我们想回答以下问题:可以将通过图像到图像翻译产生的太阳电晕的合成图像用于太阳的科学研究吗?分析强调,神经网络在计数率(像素强度)上产生高质量的图像,通常可以在1%误差范围内跨通道跨通道重现协方差。但是,模型性能在极高的能量事件(如耀斑)的对应关系中大大减少,我们认为原因与此类事件的稀有性有关,这对模型训练构成了挑战。
translated by 谷歌翻译
在自然语言处理中,已证明使用预训练的语言模型可以在许多下游任务(例如情感分析,作者识别等)中获得最先进的结果。在这项工作中,我们解决了这些方法从文本中使用的人格分类。着眼于Myers-Briggs(MBTI)人格模型,我们描述了一系列实验,其中众所周知的双向编码器表示来自变形金刚(BERT)模型的模型进行微调以执行MBTI分类。我们的主要发现表明,当前方法在多种评估方案中基于词袋和静态单词嵌入方式大大优于众所周知的文本分类模型,并且通常在该领域的先前工作都优于先前的工作。
translated by 谷歌翻译
本文介绍了一种基于变压器深度学习模型为视频游戏生成音乐的体系结构。该系统按照设计视频游戏音乐目前使用的标准分层策略来生成各种层的音乐。根据唤醒现象模型,音乐对玩家的心理环境具有适应性。我们的动机是根据玩家的口味自定义音乐,他们可以通过一系列音乐示例选择他喜欢的音乐风格。我们讨论了未来的当前局限性和前景,例如对音乐组件的协作和互动控制。
translated by 谷歌翻译
在植物繁殖中,环境(GXE)相互作用的基因型存在对耕作决策和引入新作物品种的影响很大。线性和双线性项的组合已被证明在建模这种类型的数据方面非常有用。识别GXE的一种广泛使用的方法是加性主要效应和乘法交互作用(AMMI)模型。但是,由于数据经常可能是高维的,马尔可夫链蒙特卡洛(MCMC)方法在计算上可能是不可行的。在本文中,我们考虑了这种模型的变异推理方法。我们得出用于估计参数的变异近似值,并使用模拟和真实数据将近似值与MCMC进行比较。我们提出的新推论框架平均要快两倍,同时保持与MCMC相同的预测性能。
translated by 谷歌翻译
相机陷阱是监视收集大量图片的野生动植物的策略。从每个物种收集的图像数量通常遵循长尾分布,即,一些类有大量实例,而许多物种只有很小的比例。尽管在大多数情况下,这些稀有物种是生态学家感兴趣的类别,但在使用深度学习模型时,它们通常被忽略,因为这些模型需要大量的培训图像。在这项工作中,我们系统地评估了最近提出的技术 - 即平方根重新采样,平衡的焦点损失和平衡的组软效果 - 以解决相机陷阱图像中动物物种的长尾视觉识别。为了得出更一般的结论,我们评估了四个计算机视觉模型家族(Resnet,Mobilenetv3,EdgitionNetV2和Swin Transformer)和具有不同特征不同的相机陷阱数据集的四个家族。最初,我们用最新的培训技巧准备了一个健壮的基线,然后应用了改善长尾识别的方法。我们的实验表明,Swin Transformer可以在不应用任何其他方法处理不平衡的方法的情况下达到稀有类别的高性能,WCS数据集的总体准确性为88.76%,Snapshot Serengeti的总体准确性为94.97%,考虑到基于位置的火车/测试拆分。通常,平方根采样是一种方法,它最大程度地提高了少数族裔阶级的表现约为10%,但以降低多数类准确性至少4%的代价。这些结果促使我们使用合并平方根采样和基线的合奏提出了一种简单有效的方法。拟议的方法实现了尾巴级的性能与头等阶级准确性的成本之间的最佳权衡。
translated by 谷歌翻译